Search CORE

195 research outputs found

Technical aspects of Thesaurus Construction in TIPS

Author: Chevallet Jean-Pierre
Publication venue: HAL CCSD
Publication date: 01/01/2002
Field of study

This paper describes the work done in the TIPS project about the construction of a thesaurus. This construction is a merge from a compilation of data from several web sources. These data comes from manual work, some data are real thesaurus, other are indexing recommendations. The merge is done with automatically extracted terms from large text corpora. The automatic extraction is based on both syntax and statistics. We present in this paper the way thesaurus are built and the results on Scientific corpus in the context of the TIPS project. This short paper emphasis on some technical aspects

Hal - Université Grenoble Alpes

Typologie des moteurs de recherche sur le WEB, Rapport tâche T1.1 du projet SIIRI

Author: Chevallet Jean-Pierre
Publication venue: HAL CCSD
Publication date: 01/01/1999
Field of study

L'état des lieux des moteurs de recherche sur le WEB, nous permet de dire que pour l'instant les systèmes proposés sont basés sur des technologie très basiques sans aucun traitement de l'information (langue, termes). Ces systèmes sont plus proches des données brutes que du besoin de l'utilisateur. Ce dernier doit alors faire de gros effort pour trouver une requête capable d'approcher son besoin. Seul les systèmes EuroFerret et Google proposent une approche légèrement plus élevée que les autres systèmes. Nous avons constaté que lorsqu'une version simplifiée de la syntaxe des requêtes était fournie, sa sémantique n'était pas évidente. Nous en concluons que pour réaliser une application frontale à ces systèmes, il est plus sur, quand c'est possible, d'utiliser la syntaxe complète du langage de l'algèbre de Boole. Il est frappant également de constater que la technologie mise en œuvre dans des systèmes date en faite des années 50, c'est à dire des tous débuts des recherches dans le domaine de la recherche d'information. La raison est probablement technique car pour couvrir la masse d'information colossale que représente le Web, ces techniques frustres sont faciles à implanter. Mais c'est aussi un choix technologique car l'exemple du système Google montre que l'on peut s'écarter du système basique booléen et fournir out de même des bons résultats avec une syntaxe des requêtes réduite à une séquence de mots. Notre proposition dans le projet SIRII d'utiliser ces moteurs de recherche comme élément basique à travers une interface d'analyse de la requête prend alors tous son sens : le moteur de recherche est vu comme une simple mais très vaste base de données d'indexation plein texte simple. Le rôle de cette interface sera alors de tirer au mieux partie des spécificités des moteurs que nous avons étudiés dans ce projet

Hal - Université Grenoble Alpes

E.L.E.N. : Un Système d'interrogation d'une base de logiciels

Author: Chevallet Jean-Pierre
Publication venue: HAL CCSD
Publication date: 01/01/1991
Field of study

National audienceL'augmentation de la taille et de la durée de vie des logiciels fait ressortir certains problèmes liés à l'activité du génie logiciel parmi lesquels : la cohérence entre les documents et les logiciels, la gestion des versions, le morcellement de l'information parmi les participants au projet, la vérification et la correction du logiciel, la recherche de codes réutilisables, etc. Une gestion complète et uniforme des logiciels et de leurs documentations, ainsi que la possibilité d'interroger les informations ainsi gérées, permet de simplifier un certain nombre de ces problèmes. L'information de tout le projet est alors regroupée dans un même formalisme et elle est rapidement accessible grâce à un système d'interrogation. Ainsi il est plus aisé de produire un gros logiciel et d'en effectuer la maintenance. Le système ELEN (géniE logicieL et recherchE d'informatioNs) a donc pour objectif la gestion et l'interrogation des logiciels et de leurs documentations associées. Dans cet article, nous nous intéressons plus particulièrement à la fonction d'interrogation des codes sources, qui est fondée sur une extension du modèle des graphes conceptuels

Hal - Université Grenoble Alpes

Utiliser les liens pour adapter les moteurs de recherche aux spécificités du WEB

Author: Chevallet Jean-Pierre
Radhouani Saïd
Publication venue: HAL CCSD
Publication date: 01/01/2003
Field of study

International audienceLe WEB, hypertexte mondial, nécessite l'utilisation de moteurs de recherche pour retrouver l'information. Actuellement la notion de page WEB est communément utilisée comme atome d'information retourné à l'utilisateur. Les liens entre pages sont très peu utilisés pour améliorer la qualité des réponses. Nous proposons brièvement une utilisation simple des liens dans les pages WEB, et un niveau d'indexation indépendant de la page WEB, considérée comme granularité physique

Hal - Université Grenoble Alpes

Proposition d'un modèle relationnel d'indexation syntagmatique : mise en oeuvre dans le système iota

Author: Chevallet Jean-Pierre
Haddad Hatem
Publication venue: HAL CCSD
Publication date: 01/01/2001
Field of study

National audienceNous présentons un modèle supportant une indexation à base de syntagmes. Cette modélisation inclut une description formelle des termes d'indexation, un processus de dérivation, une fonction de correspondance, une sémantique du langage d'indexation et une fonction de pondération de la orrespondance entre termes d'indexation. Elle met en évidence les éléments qui doivent permettre de guider la conception de Systèmes de Recherche d'Informations à base de mots composés. Nous proposons également un choix de techniques pour mettre en oeuvre ce modèle, particulièrement dans l'extraction automatique des syntagmes et dans leur pondération pour le calcul de la mesure pertinence d'un document par rapport à une requête

Hal - Université Grenoble Alpes

Correspondances compatibles avec les fichiers inverses pour la recherche d'information.

Author: Chevallet Jean-Pierre
Mulhem Philippe
Publication venue: HAL CCSD
Publication date: 01/01/2014
Field of study

National audienceCet article fait un retour sur l'un des éléments majeurs d'un système de recherche d'information : la correspondance basée sur des fichiers inverses car le passage d'une formule théorique à une implantation compatible avec des fichiers inverse est rarement explicitée dans les publications. Nous proposons ici de définir plus formellement l'expression d'une formule de correspondance compatible avec des fichiers inverses. Nous proposons deux niveaux de com- patibilité. Nous étudions les modèles les plus classiques en vérifiant leur compatibilité avec les fichiers inverses. Nous explorons la traduction d'une correspondance de Jensen-Shannon, initialement non-compatible avec les fichiers inverses, vers deux formules compatibles avec les fichiers inverses à chaque niveau. Une expérimentation simple, sur un corpus d'images, montre que la classique Divergence de Kullback-Leibler obtient des résultats moins bons que la Diver- gence de Jensen-Shannon compatible avec des fichiers inverses

Hal - Université Grenoble Alpes

Intégration des Analyses du Français dans la Recherche d'Information

Author: Chevallet Jean-Pierre
Nie Jian-Yun
Publication venue: HAL CCSD
Publication date: 01/01/1997
Field of study

International audienceCet article décrit des approches que nous avons implantées dans le cadre d'une collaboration de recherche entre nos deux groupes. Ces approches visent à créer une représentation plus précise pour les documents et les requêtes dans un SRI. Elles sont basées sur des extractions de termes composés, au lieu de termes simples utilisés dans les approches traditionnelles. Deux approches sont employées: par une analyse syntaxico-statistique et par l'utilisation d'une base de terminologie manuelle. Nous décrivons ces deux approches, ainsi que les résultats préliminaires obtenus

Hal - Université Grenoble Alpes

Étude préliminaire à la recherche de photographies muséales en mobilité

Author: Chevallet Jean-Pierre
Mulhem Philippe
Portaz Maxime
Publication venue: HAL CCSD
Publication date: 09/03/2016
Field of study

National audienceThis paper studies the problem of images indexing and retrieval related to museum visits. We especially focus on "offline" use of mobile devices (i.e., without connection to a remote server), from the point view of intrinsic quality and the point of view of mobile potential use. We describe three approaches, and we study their qualitative behavior on a test collection of photographs of paintings taken by mobile devices in the Grenoble museum.Cet article étudie la problématique de l'indexation et de la recherche d'image dans le cadre de visites de musée. Nous nous intéressons en particulier au cas d'utilisation d'outils mobiles "hors ligne" (c'est-à-dire sans connexion à un serveur distant), du point de vue qualité intrinsèque et du point de vue application mobile. Nous décrivons trois approches de référence, et nous étudions leur comportement qualitatif sur une collection de photographies de peintures, prises par des outils mobiles dans le Musée de Grenoble

Hal - Université Grenoble Alpes

A New Lattice-Based Information Retrieval Theory

Author: Abdulahhad Karam
Berrut Catherine
Chevallet Jean-Pierre
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

Logic-based Information Retrieval (IR) models represent the retrieval decision as an implication d → q between a document d and a query q, where d and q are logical sentences. However, d → q is a bi- nary decision, we thus need a measure to estimate the degree to which d implies q, noted P(d → q). The main problems in the logic-based IR models are the difficulties to implement the decision algorithms and to define the uncertainty measure P as a part of the logic. In this study, we chose the Propositional Logic (PL) as the underlying framework. We propose to replace the implication d → q by the material implication d ⊃ q. However, we know that there is a mapping between PL and the lattice theory. In addition, Knuth [13] introduced the notion of degree of inclusion to quantify the ordering relations defined on lattices. There- fore, we position documents and queries on a lattice, where the ordering relation is equivalent to the material implication. In this case, the impli- cation d → q is replaced by an ordering relation between documents and queries, and the uncertainty P(d → q) is redefined using the degree of inclusion measure. This new IR model is: 1- general where it is possible to instantiate most of classical IR models depending on our lattice-based model, 2- capable to formally prove the intuition of Rijsbergen about replacing P (d → q) by P (q|d), and 3- easy to implement

Hal - Université Grenoble Alpes

Building Thesaurus from Manual Sources and Automatic Scanned Texts

Author: Chevallet Jean-Pierre
Publication venue: HAL CCSD
Publication date: 01/01/2002
Field of study

International audienceThis paper describes the work done in the TIPS project about the construction of a thesaurus base. This construction is a merge from a thesaurus manually built and one automatically extracted from large text corpora. Several manually built thesaurus have been semi-formatted to be merged in a consistent common base. The automatic extraction is based on both syntax and statistics. We present in this paper the way thesaurus are built and the results on Scientific corpus in the context of the TIPS project

Hal - Université Grenoble Alpes